Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏刚刚,Anthropic 发布了一项新研究成果。今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。
来自主题: AI技术研报
7747 点击 2025-11-22 15:33